Data Versioning 與資料領域技術發展趨勢

2023 iThome 鐵人賽

DAY 29

AI & Data

吵什麼 AI 煉金術？！你家有礦嗎？(資料領域必知的 30 個詞彙)系列第 29 篇

15th鐵人賽 data versioning open data lake lakefs nessie

Anna Yen

2023-10-02 23:42:11

1624 瀏覽

分享至

從 2022 年底爆發的生成式 AI 熱潮，以及它所依賴的大型語言模型(LLM)，肯定會對資料工程與資料科學產生重大的影響。這幾年我們團隊看到的商用版本 MLOps 平台解決方案供應商，正在急速轉向 LLM 的開發、調優與指示工程(Prompt Engineering)。

這個重大的轉折點將會進一步推升「非/半結構化資料」的蒐集、處理與應用。然而，這個相對陌生的領域，將為資料專案帶來前所未有的、艱鉅的挑戰。

如何更快速地調用所有載體的資料，讓 Open data Lake/Lakehouse 的議題瞬間冒出來。除了我們在本系列前幾篇都提到開源軟體專案 Apache Iceberg，Metadata Management 這個灶都還沒燒熱，就出現了更細緻的市場分隔—Data Version Control Infra(Data Versioning)。

圖片來源：https://lakefs.io/blog/the-state-of-data-engineering-2023/attachment/1200x630-lakefs-state-of-data-engineering-report/

這個 Data Versioning 的新興市場實在太新太新了！大約起於 2021 年。而且關聯解決方案的吉祥物都可愛的要命！不愧是 Y & Z 世代的新創。

The lakeFS project

LakeFS 是一個開源專案，背後是一間新創公司 Treeverse。創辦人埃納特·奧爾 (Einat Orr) 和奧茲·卡茨 (Oz Katz) 分享 LakeFS 的任務：「作為處理大量資料的 Data Engineer，我們感到非常沮喪，因為我們的大量時間都花在重複的反應性任務上，例如：修復資料不一致、將資料回滾到之前的一致狀態，以及處理運算資源分配不均和浪費，造成更多資料副本產生，系統雜亂不堪難以維運。我們決定編寫一個開源解決方案，為所有這些問題提供概念性解決方案。」

LakeFS 的目標是作為資料湖的版本控制系統，以類 Git 方式運作。資料工程師可以使用它來建立資料的獨立版本，與其他團隊成員共用它們，並輕鬆地將變更合併到主分支中。

圖片來源：https://lakefs.io/wp-content/uploads/2023/07/what_is-1024x564.png